今天介紹的 Qwiklabs 的任務集是 [Google Cloud Solutions II: Data and Machine Learning],現在有二個子任務在維修中,無法練習。不過沒關係,我們暫時還不會介紹到。跟昨天一樣先選幾個來介紹一下,他的子課程如下:
第一個實作 (GSP160) 蠻簡單的,主要是指導你二件事:
加入公用的資料集,這裡要使用的是 1996-2009年NCAA美國大學運動聯盟的籃球比賽,球隊和球員的NCAA數據集資料,有些隊伍的資料可以到 1894 年。
首先在右側的功能表列找到 BigQuery。
這是 BigQuery 的介面,只要按 "+ ADD DATA",選擇 "Explore public datasets",就可以看到有許多公開的資料集。
我們可以在上面的搜尋框裡輸入 "ncaa basketball" ,就可以找到我們需要的資料集。
按下 "VIEW DATASET" 就會找到資料集的位置 ncaa_basketball,展開後可以看到有好幾個 Table,這次的目標是 mbb_pbp_sr 資料集,它的內容是從2013-14賽季到2017-18賽季,每屆男子籃球比賽的隊伍記分表(Team-level box scores)資料,每一行代表一場比賽中單個團隊的統計數據。
從 Details 可以看到他的 Table ID 是 bigquery-public-data.ncaa_basketball.mbb_pbp_sr。
有了 Table ID,之後就是一般的 SQL 練習,如:
SELECT
event_type,
COUNT(*) AS event_count
FROM `bigquery-public-data.ncaa_basketball.mbb_pbp_sr`
GROUP BY 1
ORDER BY event_count DESC;
把查詢的字串輸入到右上 Query editor 中,按 Run,就可以在下方看到查詢結果。
以上就是這個練習的簡介。所以如果你的資料集有支援 BigQuery 的話,就可以很方便的被引用。
第二個實作 (GSP077) 這是一個模型訓練的實作練習,訓練一個簡單的分類器對花朵的圖像進行分類。
一開始先建立一個VM,並且建立防火牆讓你可以連到 TensorBoard 查看, 再來就是下載範例程式。
git clone https://github.com/googlecodelabs/tensorflow-for-poets-2
接著就開始用 GoogleNet 模型來跑訓練,因為實驗給的時間只有1小時,在這裡程式僅培訓這個網路的最後一層,比較有機會在時間內結束。訓練完後丟個雛菊(Daisy)的圖片給他,正常的話應該可以看到如下的結果(Daisy 0.99508375)。
Daisy 0.99508375
Dandelion 0.0028086917
sunflowers 0.002093148
Roses 1.37025945e-05
Tulips 6.3252025e-07
這樣就完成這個實驗了。
今天先簡單介紹其中二個子任務。
好,第28天,結束。
參考
Google Cloud Solutions II: Data and Machine Learning
BigQuery Dataset - NCAA Basketball
籃球科學化發展,進階數據大解析(五):Win Share、RPM、BPM、VORP
box scores - wiki
Going Deeper with Convolutions
googlecodelabs/tensorflow-for-poets-2